论文荐读|机器翻译痕迹究竟是什么?
点击蓝字 关注我们
语言自动翻译曾经是《星际迷航》《银河系漫游指南》等经典科幻作品中的炫酷设定,如今我们已习以为常。机器翻译已经广泛应用于现代生活的各个领域,翻译质量也更加接近人工翻译。从科幻到现实的转变得益于机器翻译技术的不断革新。
你使用过机器翻译工具吗?你能察觉机器翻译和人工翻译文本之间的区别吗?
猜一猜以下两个句子是由机器还是人工翻译的?
a. 他们得出的总体结论是,实践学习最好用权力函数来描述。
像b句这样语言不够自然、地道的译文,常被人们称为“机器翻译痕迹严重”。2021年,一位网友在豆瓣上评论某中文译作“机翻痕迹严重”,引发了一系列的争议与讨论,“光明时评”都发声了。
那么,为什么人们能够感觉到某些文本是机器翻译的?人们常说的“机器翻译痕迹”究竟是什么?机器翻译文本中的哪些特征可能会让读者感觉与人工翻译文本存在差异?在《外语教学与研究》2024年第3期上发表的一项研究(题为《寻找机器翻译痕迹——神经机器翻译文本的句法特征研究》),尝试回答这一问题。小编在这里简要介绍一下这项研究的主要内容(没想到几年前的瓜还有后续吧
近十年来,国内外不同领域的学者已经关注到,人、机翻译文本在语言风格上存在差异。西安交通大学蒋跃教授团队和荷兰蒂尔堡大学计算机博士Vanmassenhove团队都发现,人、机译本中词汇与句法显性特征存在差异。德国萨尔大学计算语言学博士Bizzoni、浙江大学刘益光研究员对比了人、机译本在深层句法层面的表现,但是他们的研究结果不一致。那么,机翻译本在深层句法结构方面究竟是否与人工译本存在差异,从而导致理解困难、不够地道呢?
为了探讨这个问题,这项研究首先构建了英译汉的人、机翻译依存树库,其中人工译本是《人类简史:从动物到上帝》的汉译本(林俊宏译),机翻译本是由百度与谷歌翻译系统基于英文文本生成的汉译本。然后,使用平均依存距离(MDD)与依存方向两个句法计量指标(可参考书讯|《依存关系与语言网络》独家访谈),考察人、机译本在句法复杂度和语序分布上的差异。
在句法复杂度方面,图1显示在较短的句子中,人、机译本的MDD比较接近;而在较长的句子里,尤其是词数超过16个时,机翻译本的MDD明显较大。这说明,机器翻译可能不善于控制长句的句法复杂度,容易输出理解难度较大的译文。机器翻译出现这样的问题是可以理解的。因为机器不像人脑那样受到记忆与认知的限制,它的记忆能力和处理能力远超人类。
图1. 不同句长的MDD
从图1中还可以看到,机翻译本的MDD绝大多数也小于4,并没有超过自然语言的范围和人类短期记忆的一般容量。这告诉我们,机器虽然没有人脑的认知限制,但它还是在训练语料中发现了自然语言依存距离最小化的倾向(参见自然语言中存在依存距离最小化倾向),并努力模仿人类“爱偷懒”的这个习惯,生成容易理解的句子。
原文:The remains of the wall built by WIC ..are today paved over by the world's most famous street - Wall Street.
人工译文:当时西印度公司曾在殖民地筑起一道墙,⋯⋯,这道墙的位置现在成了世界上最著名的街道:华尔街。
百度译文:西印度公司⋯⋯修建的城墙的遗迹如今被世界上最著名的街道——华尔街所覆盖。
谷歌译文:西印度公司⋯⋯建造的城墻残骸如今已被世界上最著名的街道——华尔街铺成。 语序分布差异 木讷的机器努力成为一名端水大师
在语序分布方面,图3显示,在较长的句子中,人、机译本的依存方向比较接近;但在较短的句子中(同样以16个词为界),人工翻译比机器翻译更加倾向于支配词居后的依存方向。不同句长中依存方向的差异说明什么呢?又需要联系到语言规律与认知机制。
图3. 不同句长的依存方向分布
在语言使用中,工作记忆最小化(online memory minimization)与可预测性最大化(maximum predictability)是两种互相竞争的需求。简单来说,在较长的句子中需要优先满足工作记忆最小化,所以倾向于支配词居前(因为支配词居后的依存关系更难处理);在较短的句子中可以优先考虑可预测性最大化,所以倾向于支配词居后。
现在再回到
机器翻译上
面。
机器翻译在处理长句的时候,能够尽量让支配词居前以降低认知负担,但是在处理短句的时候,没能尽可能使支配词居后以提高可预测性。
因而
可以
说,在调节不同需求的动态平衡时,机器翻译暴露了它比较机械、木讷的一面,没能做到两碗水端平(机器:我太难了
那么,机翻译本中支配词居后的依存关系占比较低具体是什么造成的呢?在图4中,前置宾语(FOB)及其左侧的依存关系以支配词居后占优势,右侧的依存关系以支配词居前占优势。两侧依存关系使用频率的高低就会影响整体依存方向的天平往哪个方向倾斜,以及倾斜多少程度。在机翻译本中,左侧的状中关系(ADV)的使用频率明显较低,而右侧的右附加关系(RAD)、介宾关系(POB)等的使用频率较高。这导致与人工译本相比,机翻译本中依存方向的天平更加往右侧(即支配词居前)倾斜。
原文:The very survival of rivers, trees and lions depends on the grace of imagined entities such as gods, nations and corporations. 人工译文:河流、树木和狮子想要生存,有时候还得仰赖神、国家和企业这些想象现实行行好、放它们一马。 百度、谷歌译文:河流、树木和狮子的生存依赖于想象中的实体,如神、国家和公司的恩典。
这说明,虽然人、机翻译表达了相近的意义,但是他(它)们倾向于使用不同的句法手段。机器翻译在选用词类和依存关系的时候,更容易受到英语源语的影响,偏离汉语目标语的特点,从而使译文不够地道。
END
这项研究的结果表明,机翻译文在句法复杂度与语序分布上与人工译文存在一定差异,这可能就是读者所察觉到的“机器翻译痕迹”的部分来源,也是导致机翻译文难以理解、不够地道的部分原因。当年那场关于“机翻痕迹严重”的争论,“光明时评”说,“在这场关于翻译水准的争论中,几乎没有看到有价值的意见,充斥的都是情绪化的表达。”不知道这项姗姗来迟的研究结果,能否有助于理性地探讨翻译水准的问题呢?
近两年,大语言模型广泛和深刻地影响着人们的生产与生活,机器翻译领域尤甚。这项研究的发现,有利于增进对机器翻译语言与AI工具的了解。目前人们能敏锐地察觉到,大语言模型生成的文本散发着一股“AI味儿”。因此,人们需要谨慎地使用AI工具,了解它容易出现怎样的问题。例如,已有研究发现,从几个词就可以看出文本可能是由ChatGPT写的(参见Nature|警惕使用Chat-GPT,这些词汇轻易暴露论文是Chat-GPT帮忙写的,有专家呼吁零容忍...)。
这项研究也有助于深化我们对自然语言与人类自身的认识。人类“偷懒”“端水”实际是为了追求语言的经济性与表达效率,即能够在有限的认知资源内进行有效沟通。机器在语言理解与生成上的表现反过来推动着我们对自然语言的认识。上个月,OpenAI发布了最新模型GPT-4o,其中o代表omni(全能),该模型似乎已经能够像一个真人一样与人类对话(图灵大师很欣慰吧?)。这表明自然语言并非那般神秘莫测、难以学习。那么机器究竟学到了哪些语言知识呢?这个问题也是本文介绍的这项研究所在的团队(北京语言大学语言科学院计量语言学研究中心)近年来在研究的问题,并且已经有了一些发现,见《对于神经网络语言模型而言,位置就只是一个序号吗?》。回答这个问题,可以打破我们对语言知识的认知局限,有助于窥探机器和人类的语言能力“黑箱”。
机器是人类的影子,一直模仿与跟随着人类;也是一面镜子,让我们观照自己习以为常的样子。通过这面镜子,我们还将看到更多更多……
本文介绍的研究论文已上线CNKI平台,点击原文链接可直接访问。
沈梦菲, 黄伟. 寻找机器翻译痕迹——神经机器翻译文本的句法特征研究[J]. 外语教学与研究, 2024, 56(03): 429-441.
|本文的封面图由智谱清言生成